<!DOCTYPE html>
<html lang="ja">

<head>
  <meta charset="utf-8">
  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
  <meta http-equiv="Content-Style-Type" content="text/css">
  <script src='../bbs.js'></script>

  <!-- Global site tag (gtag.js) - Google Analytics -->
  <script async src="https://www.googletagmanager.com/gtag/js?id=UA-120820034-1"></script>

  <link href="../bbs.css" type="text/css" rel="stylesheet">
  <link rel="shortcut icon" href="/favicon.ico">
  <title>今後のアイディア1 | サクラエディタ過去ログ</title>
</head>
<body>
<ul class="side">
        <a href="./" class="toindex">◀ANSI版開発トップへ</a>
        <li><div class="list-title">
    <span class="no">4575</span>
    <a class="thread-title" href="4575.html#4575">今後のアイディア1</a></div>
    <ul><li><div class="list-title">
    <span class="no">4595</span>
    <a class="thread-title" href="4575.html#4595">Re:今後のアイディア1</a></div>
    <ul><li><div class="list-title">
    <span class="no">4669</span>
    <a class="thread-title" href="4575.html#4669">Re2:今後のアイディア1</a></div>
    <ul><li><div class="list-title">
    <span class="no">4715</span>
    <a class="thread-title" href="4575.html#4715">Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4716</span>
    <a class="thread-title" href="4575.html#4716">RE: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4717</span>
    <a class="thread-title" href="4575.html#4717">Re2: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4719</span>
    <a class="thread-title" href="4575.html#4719">Re3: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4722</span>
    <a class="thread-title" href="4575.html#4722">Re4: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4726</span>
    <a class="thread-title" href="4575.html#4726">Re5: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4727</span>
    <a class="thread-title" href="4575.html#4727">Re6: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4729</span>
    <a class="thread-title" href="4575.html#4729">Re7: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4737</span>
    <a class="thread-title" href="4575.html#4737">Re8: Unicode の対応について</a></div>
    </li><li><div class="list-title">
    <span class="no">4738</span>
    <a class="thread-title" href="4575.html#4738">Re8: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4744</span>
    <a class="thread-title" href="4575.html#4744">Re9: Unicode の対応について</a></div>
    </li></ul></li><li><div class="list-title">
    <span class="no">4742</span>
    <a class="thread-title" href="4575.html#4742">Re8: Unicode の対応について</a></div>
    </li></ul></li></ul></li></ul></li></ul></li></ul></li></ul></li><li><div class="list-title">
    <span class="no">4718</span>
    <a class="thread-title" href="4575.html#4718">Re2: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4723</span>
    <a class="thread-title" href="4575.html#4723">Re3: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4724</span>
    <a class="thread-title" href="4575.html#4724">Re4: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4725</span>
    <a class="thread-title" href="4575.html#4725">Re5: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4728</span>
    <a class="thread-title" href="4575.html#4728">Re6: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4731</span>
    <a class="thread-title" href="4575.html#4731">Re7: Unicode の対応について</a></div>
    <ul><li><div class="list-title">
    <span class="no">4734</span>
    <a class="thread-title" href="4575.html#4734">Re8: Unicode の対応について</a></div>
    </li></ul></li></ul></li></ul></li></ul></li></ul></li></ul></li></ul></li><li><div class="list-title">
    <span class="no">4758</span>
    <a class="thread-title" href="4575.html#4758">RE: Unicode の対応について</a></div>
    </li></ul></li></ul></li></ul></li></ul></li>
    </ul><ul class="main"><li><section><h1 id=4575>
    <span class="no">[4575]</span>
    <a class="thread-title" href="#4575">今後のアイディア1</a>
    <span class="author">げんた</span>
    <time datetime="2006-09-09T21:23:41">2006年09月09日 21:23</time></h1>
    <div class="body">基本部分について今後どう持っていったらよいのかチラシの裏(笑)で整理．<br><br>現在1行1データの構造なので，改段のない文章を折り返しで書くと激しく遅くなる．<br>1行の制限を取っ払ってほしいとの意見があったが，そんなわけで実際上取っ払ったところでまともに動かない．<br>↓<br>1行を複数ブロックに分割する場合，検索が問題になる．<br>通常検索: 境界をまたぐ文字列比較の導入が必要<br>bregex: サポートされていない<br>メモリ上で不連続でも検索できるのは(全略)さんのJRegexとboost::regexくらいか？<br>JRegexを本体に取り込んでしまう(90KB程度?)案はどうか．(DFA/BMサポート版が未評価)<br>正規表現がオプションでなく内蔵だと，他の機能で正規表現が使えるので楽．<br><br>複数ブロック管理を考えたらラスティブさんのCMemをうまく使っていけるのかな？<br>逆に今の構造は，1行が短いときにオーバーヘッドが大きすぎる気がする．<br>すぐに表示してバックグラウンドで読み込み継続できるようにするには<br>画面表示の折りたたみ(部分非表示)もしたい．<br>折り返しをウィンドウ幅に追従させても速度低下しないようにしたい→レイアウトの部分再構築ができるように．<br><br>Unicodeサポートするには<br>* 内部UTF-8で表示時に変換というアイディアは速度的に不利だろうか．今もSJIS→UnicodeってWindowsが変換してるんでしょ？<br>* 設定ファイル等はUTF-8の方が良さそうな気がする．<br></div></section>
    <ul><li><section><h1 id=4595>
    <span class="no">[4595]</span>
    <a class="thread-title" href="#4595">Re:今後のアイディア1</a>
    <span class="author">ラスティブ</span>
    <time datetime="2006-09-26T01:03:18">2006年09月26日 01:03</time></h1>
    <div class="body">▼ げんたさん<br>&gt; 複数ブロック管理を考えたらラスティブさんの<br>&gt; CMemをうまく使っていけるのかな？<br><br>　しかし１行１０万桁を超えるようなクレイジィなぶつを<br>扱うことより，１行２００桁未満のテキスト文書を<br>扱うことのほうが圧倒的に多く，<br>１行を複数ブロックで管理させると，<br>短い行を多く扱う場合のメモリ使用量の損失が<br>大きくなるのです…．<br>分割管理するなら１行の制限を取っ払って<br>ギャップベクタ方式を導入するするくらいしないと，<br>もとが取れないなぁと気づいてしまいまして，<br>放置気味です．<br><br>&gt; 内部UTF-8で表示時に変換というアイディアは<br>&gt; 速度的に不利だろうか．<br><br>　一筋縄じゃ失敗する予感がします．<br>複数ブロック管理をするにしてもそうですが，<br>LineColmnToIndex と LineIndexToColmn が<br>もっと高速に処理できるよう作り変える必要が<br>あるような気が．<br></div></section>
    <ul><li><section><h1 id=4669>
    <span class="no">[4669]</span>
    <a class="thread-title" href="#4669">Re2:今後のアイディア1</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-01-29T00:23:12">2007年01月29日 00:23</time></h1>
    <div class="body">なんか自分が書いたレスを見てフォローしたくなりました（汗<br><br>“Unicode をサポートするには”　のところについてですが、<br>設定ファイル等を UTF-8 にするのは、データ落ちに<br>強くなるので賛成です。内部コードを UTF-8 に<br>するのは、もうすでに一部 TCHAR 化されてる現状を鑑みると、<br>なんか、TCHAR になってるところをまた char に直して<br>いかないといけないので躊躇してしまいますけれど、<br>正規表現との相性はいいのかもしれません。<br>Migemo の dll の方も、UTF-8 に対応予定のようでした。<br><br>UTF-8 で書かれた文字列 “あい”の連続を検索。<br>(?:(?:\xE3\x81\x82)|(?:\xE3\x81\x84))+<br><br>ただ、このまんまじゃマッチしないです…（がっかり）<br>間違っていたらご指摘ください。<br><br>“行の複数ブロック管理”については、<br>正規表現ライブラリとの互換性を保つために、<br>入力された正規表現を解釈しながら各ブロック<br>ごとに内部的な正規表現（←これは従来の<br>正規表現ライブラリ用）を随時生成して実行させる・・・<br>みたいなことをやってくれるコードを書き加えるか、<br>思い切って boost::regex で実装しなおすかする<br>必要がありそうで、大変難しそうです。<br><br>とりあえずは、SJIS → Unicode → SJIS 変換で<br>データが元に戻る仕組みを作り始めることと、<br>各種 SJIS 依存コードを、UTF-8（？）で<br>実行できるように作り変えること、<br>あたりからでしょうか (^^<br><br>UTF-16 ⇔ (UTF-32 ⇔) UTF-8 変換が<br>ボトルネックになりそうです。<br></div></section>
    <ul><li><section><h1 id=4715>
    <span class="no">[4715]</span>
    <a class="thread-title" href="#4715">Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-10T00:01:14">2007年03月10日 00:01</time></h1>
    <div class="body">　Unicode についていろいろ調べていると、<br>なんだか長く重い芋づるを抜いてるような感覚に陥ります…（x_x）<br><br>&gt; とりあえずは、SJIS → Unicode → SJIS 変換で<br>&gt; データが元に戻る仕組み<br><br>　これについては、API関数 ::WideCharToMultiByte の<br>特殊な変換（相互変換できない変換）を抑制することとで<br>達成できることを前提に、一文字変換ルーチン集を作成中です。<br>SJIS-2004 の変換表を組み込むことも考えましたけれど、<br>Windows Vista が持ってる変換表と一致しているかどうかを<br>確認する環境が無いので、やっぱ手が出せませんでした…（しょぼーん）。<br><br>　一方で、変換の際に必要となる Unicode 版の一文字認識ルーチンを、<br>どこまで実装すればいいのか…、躊躇しています。<br>「内部 Unicode 化」と謳うなら、このルーチンで<br>合成文字をすべて捕らえる必要があるんですけれど、<br>下は Win95 まで対応しているエディタのことを考えると、<br>API関数 ::TextOut を完全 Unicode 化しない限り、<br>あんまり意義が見出せませんし、そこまでできる自信ナシ・・・。<br>　そこで、（もかさん作のワイドキャラクタ版で検証されていた<br>ことなのかも知れません…）Unicode の表現方法のうち、<br>サロゲートペアと、JIS X 0213:2004 で導入された合成文字だけ<br>認識できるところまで実装（ISO 10646-1 Level1）するのがいいかと<br>思うのですけれど…、それでも、::TextOut は<br> ISO-10646-1 Level1 未満なのが気にはなりますが…。<br>それとも、::TextOut で出力できる範囲に狭めるのがいいんでしょうか。<br><br>参考 URL: http://www.linux.or.jp/JM/html/LDP_man-pages/man7/unicode.7.html<br>ISO-10646-1 のレベルについて記述がありました。<br></div></section>
    <ul><li><section><h1 id=4716>
    <span class="no">[4716]</span>
    <a class="thread-title" href="#4716">RE: Unicode の対応について</a>
    <span class="author">げんた</span>
    <time datetime="2007-03-10T01:20:52">2007年03月10日 01:20</time></h1>
    <div class="body">&gt;API関数 ::TextOut を完全 Unicode 化しない限り、あんまり意義が見出せません<br>やっぱり，UNICODE対応ですかねぇ...UnicodeとSJISの2本立てで両方メンテナンスできるとは思えず，かといってWindows 95/98/MEを切り捨てるのもはばかられます．せっかくのワイドキャラクタ版も無視するような形になってしまっています．(Unicodeで動く正規表現ライブラリがその当時は無かったこともありますけど...)<br>個人的には文字列の最初から読まないと2バイト文字判定ができないSJISとはおさらばしたいですが...<br><br>あとふぁんくらぶで指摘されていたようにノンリグレッション試験を効率よく行えないので大規模修正に踏み切れず保守的な対応になりがちです．(そういえば，CMemもすっかり忘れていました．)<br><br>この辺も含めてアイディアがあればよろしくお願いします．<br></div></section>
    <ul><li><section><h1 id=4717>
    <span class="no">[4717]</span>
    <a class="thread-title" href="#4717">Re2: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-10T14:01:33">2007年03月10日 14:01</time></h1>
    <div class="body">&gt; UnicodeとSJISの2本立てで両方メンテナンスできるとは思えず，<br>&gt; かといってWindows 95/98/MEを切り捨てるのもはばかられます．<br>&gt; せっかくのワイドキャラクタ版も無視するような形になってしまっています．<br><br>ワイドキャラクタ版については、&gt;&gt;data:2969 で<br>みくさんが提案された手順が堅実じゃないかと感じることがあって、<br>手を出してません（汗）<br>既存コードを最大限に利用できる Unicode 系文字コードは、<br>UTF-8 かなと感じるのも、理由の一つです。<br>正規表現ライブラリ（.dll）と、C/Migemo ライブラリ（.dll）は、<br>どの道すげ替えないといけないようで…。<br><br><br>&gt; ノンリグレッション試験を効率よく行えないので<br>&gt; 大規模修正に踏み切れず保守的な対応になりがち<br><br>外部ライブラリや表示系などの、<br>UNICODE対応が遅くなりそうな部位のために、<br>UTF-8 か SJIS かを動的に選択できるようにするよう、<br>ぼちぼち実装しています。<br>エンバグ率が高まるのは根気強く何とかするとして。<br>不便そうなところがあれば、早めにご指摘下さい。<br><br>ところで、サクラエディタの方針としては、<br>Unicode（UCS）の実装水準は、サロゲートペアと、<br>JIS X 0213:2004 で導入された合成文字だけとするのでよろしいでしょうか。<br></div></section>
    <ul><li><section><h1 id=4719>
    <span class="no">[4719]</span>
    <a class="thread-title" href="#4719">Re3: Unicode の対応について</a>
    <span class="author">maru</span>
    <time datetime="2007-03-10T15:55:14">2007年03月10日 15:55</time></h1>
    <div class="body">&gt;ところで、サクラエディタの方針としては、<br>&gt;Unicode（UCS）の実装水準は、サロゲートペアと、<br>&gt;JIS X 0213:2004 で導入された合成文字だけとするのでよろしいでしょうか。<br><br>あまり細かいところは良く分かっていないのですが、大枠としてはVistaとの受け渡しを可能な限り確保できるレベルがひとつの目安でしょうか。<br><br>合成文字というのは、ここの図１４のことでよろしいでしょうか。<br>http://itpro.nikkeibp.co.jp/article/COLUMN/20061221/257533/<br>複数の表示方法をもつ図１８の文字群は、往復変換時にWaveDashと同じ問題になりますね。<br><br>&gt;大規模修正に踏み切れず保守的な対応になりがちです．<br>皆の合意がとれるような大規模修正のときは、例えば「内部Unicode化移行期間」などとして、バグフィックス以外の修正を完全停止してしまうとか(笑)<br></div></section>
    <ul><li><section><h1 id=4722>
    <span class="no">[4722]</span>
    <a class="thread-title" href="#4722">Re4: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-10T19:41:51">2007年03月10日 19:41</time></h1>
    <div class="body">&gt;&gt;data:2969 じゃなくて、&gt;&gt;dev::2969 でした。<br>すみませんでした。<br><br>&gt; 大枠としてはVistaとの受け渡しを可能な限り確保できるレベルがひとつの目安でしょうか。<br><br>てことは、サロゲートペアと、JIS X 0213:2004 で導入された<br>合成文字だけとするのが妥当なところですね。<br><br><br>&gt; 合成文字というのは、ここの図１４のことでよろしいでしょうか。<br>&gt; http://itpro.nikkeibp.co.jp/article/COLUMN/20061221/257533/<br>&gt; 複数の表示方法をもつ図１８の文字群は、往復変換時にWaveDashと同じ問題になりますね。<br><br>図１４と図１８のことです。<br>想定する文字コードの変換経路は以下のようです：<br><br>　１．Unicode系列 以外の文字コードＳ -&gt; Unicode系列 -&gt; Unicode系列 以外の文字コードＳ<br>　２．Unicode系列 -&gt; Unicode系列 以外の文字コードＳ -&gt; Unicode系列<br><br>１ については、WaveDash 問題を除くと、問題ない・・・ですよね。<br>合成文字による表現の揺らぎからくる影響が出るのは ２の変換経路をたどるときだけですけれど、<br>エディタ内部が Unicode系列の文字コードであれば ２の変換経路をたどることは、<br>ありません・・・よね？（おろおろ）<br></div></section>
    <ul><li><section><h1 id=4726>
    <span class="no">[4726]</span>
    <a class="thread-title" href="#4726">Re5: Unicode の対応について</a>
    <span class="author">maru</span>
    <time datetime="2007-03-11T01:30:49">2007年03月11日 01:30</time></h1>
    <div class="body">&gt;&gt; 複数の表示方法をもつ図１８の文字群は、往復変換時にWaveDashと同じ問題になりますね。<br>&gt;エディタ内部が Unicode系列の文字コードであれば ２の変換経路をたどることは、<br>&gt;ありません・・・よね？（おろおろ）<br><br>あっそうか、大丈夫ですね。余計なこと書いてすいません。<br></div></section>
    <ul><li><section><h1 id=4727>
    <span class="no">[4727]</span>
    <a class="thread-title" href="#4727">Re6: Unicode の対応について</a>
    <span class="author">もか</span>
    <time datetime="2007-03-11T05:57:03">2007年03月11日 05:57</time></h1>
    <div class="body"><br>Re: Unicode の対応について<br>&gt;SJIS-2004 の変換表を組み込むことも考えましたけれど、<br>&gt;Windows Vista が持ってる変換表と一致しているかどうかを<br>&gt;確認する環境が無いので、やっぱ手が出せませんでした…（しょぼーん）。<br>Vista は「JIS2004(JIS X 0213:2004の文字集合に入ってる漢字等の表示)」に対応しているだけで、<br>Shift_JIS-2004 には未対応らしいです。<br><br>このあたりで触れています。<br>http://itpro.nikkeibp.co.jp/article/COLUMN/20061222/257650/<br>MSDNのコードページ一覧にも無いようです。(一覧だけでは信頼に置けないのが難点)<br>http://msdn.microsoft.com/library/default.asp?url=/library/en-us/intl/unicode_81rn.asp<br>ということで、JIS 2004系エンコードは実装しないほうがいいと思います。<br><br>&gt;１．Unicode系列 以外の文字コードＳ -&gt; Unicode系列 -&gt; Unicode系列 以外の文字コードＳ<br>CP932 の NEC/IBM 拡張の重複による Unicode との双方向でない変換などが多少あります。<br>あとは、サクラエディタ特有のバイナリデータ編集時です。<br><br>&gt;２．Unicode系列 -&gt; Unicode系列 以外の文字コードＳ -&gt; Unicode系列<br>３．Unicode系列同士の変換<br>めったに使わないUTF-7同士による変換方法の差異とか<br>UTF-8の禁止シーケンスをUTF-16にすると失われる(禁止だからテキストエディタ的にはOK)などの問題<br>がないわけでは無いです。<br><br>あとは、「ファイルからコピー」のようなときにファイルの途中にBOMが付いたりするかもしれないなど、<br>細かいことを考えると切りが無いです。<br><br>#某ワイドキャラクタ版は、やっつけ仕事すぎることもあって、<br>#あまり気にせずに自由に作業してくだされば幸いです。<br></div></section>
    <ul><li><section><h1 id=4729>
    <span class="no">[4729]</span>
    <a class="thread-title" href="#4729">Re7: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-11T19:40:36">2007年03月11日 19:40</time></h1>
    <div class="body">&gt; Vista は「JIS2004(JIS X 0213:2004の文字集合に入ってる漢字等の表示)」に対応しているだけで、<br>&gt; Shift_JIS-2004 には未対応らしいです。<br>&gt; <br>&gt; このあたりで触れています。<br>&gt; http://itpro.nikkeibp.co.jp/article/COLUMN/20061222/257650/<br>&gt; MSDNのコードページ一覧にも無いようです。(一覧だけでは信頼に置けないのが難点)<br>&gt; http://msdn.microsoft.com/library/default.asp?url=/library/en-us/intl/unicode_81rn.asp<br><br>　そうでしたか（恥ずかしいー）、それでは、サクラエディタの方針としては、<br>SJIS_JIS-2004 には対応しない方向でよろしいでしょうか。<br><br>&gt; CP932 の NEC/IBM 拡張の重複による Unicode との双方向でない変換などが多少あります。<br>&gt; あとは、サクラエディタ特有のバイナリデータ編集時です。<br><br>　Unicode との双方向変換でない変換というのは、下のサイトで取り上げられていることでしょうか。<br>http://support.microsoft.com/default.aspx?scid=kb;en-us;Q170559<br>内部をUnicode化するには、<br>こういった差異を吸収できる構造を作る必要があるわけですね・・・。<br><br>　サクラエディタ特有のバイナリデータ（任意値）は、内部的に<br><br>任意値/内部フォーマット<br>0x00/0xFFFF 0x0000<br>0x01/0xFFFF 0x0001<br>　. /　.　　.<br>　. /　.　　.<br>0xFF/0xFFFF 0x00FF<br><br>と表現して処理できるんじゃないかな…と、以前から思っていたので、<br>CMemText クラスの一部出来上がってる部分に組み込んでるんですけれど、<br>どんな影響が出るのか不明で…、不安です（汗）<br>致命的な欠陥にはならないと思いますけれど。<br><br>&gt; ３．Unicode系列同士の変換<br>&gt; めったに使わないUTF-7同士による変換方法の差異とか<br>&gt; UTF-8の禁止シーケンスをUTF-16にすると失われる(禁止だからテキストエディタ的にはOK)などの問題<br>&gt; がないわけでは無いです。<br><br>　UTF-7 と JIS を 他の文字コードに単純に変換するだけでは、<br>元の UTF-7 や JIS のバイナリイメージを復元できないので、<br>その２つだけは、勘弁して頂くことにします・・・。<br><br>&gt; あとは、「ファイルからコピー」のようなときにファイルの途中にBOMが付いたりするかもしれないなど、<br>&gt; 細かいことを考えると切りが無いです。<br><br>　“「ファイルからコピー」のようなとき”って、どんなときかを、<br>もう少し、詳しく説明していただけませんか。<br><br>　すみません m(__)m<br></div></section>
    <ul><li><section><h1 id=4737>
    <span class="no">[4737]</span>
    <a class="thread-title" href="#4737">Re8: Unicode の対応について</a>
    <span class="author">もか</span>
    <time datetime="2007-03-13T21:23:22">2007年03月13日 21:23</time></h1>
    <div class="body">各種方針は、それで私はOKだと思います。<br><br>&gt;&gt; あとは、「ファイルからコピー」のようなとき<br>これはちょっと方向性が違う話しなので、あまり気にしないでください。<br>すみません。<br>　いちよう説明すると、今はまだ無い「ファイルからカーソル位置に挿入」みたいなものがあるときに、<br>挿入するファイルにBOMなどが付いていたらどうしよう。保存すべきか削除するものなのか。<br>内部がUnicodeになると制御コードが増えるので悩ましいという話です。<br></div></section>
    </li><li><section><h1 id=4738>
    <span class="no">[4738]</span>
    <a class="thread-title" href="#4738">Re8: Unicode の対応について</a>
    <span class="author">wakura</span>
    <time datetime="2007-03-13T21:34:42">2007年03月13日 21:34</time></h1>
    <div class="body"><br>&gt;任意値/内部フォーマット<br>...<br>&gt;と表現して処理できるんじゃないかな…と、<br><br>私もバイナリデータをどう表現するか悩んでいたんですが、なるほど（メモメモ<br>ただ、これって1バイト系の任意文字ですよね。<br>UTF-16のファイルを読んだときに0xffffなコードが含まれていたら0xffff,0xffff<br>とエスケープしないといけないです。それとも0xffff,0x00ff,0xffff,0x00ffに展<br>開するのでしょうか。不正なサロゲートペアやUTF-32でも、以下同様。<br>UTF-16やUTF-32の途中バイトでファイルが終わっている場合もあるだろうから、<br>1バイト単位に分割してエスケープするんだろうなと思う。<br><br>で、独自にエスケープするとTextOut、キャレット位置の取得なんかのときにデー<br>タをごっそりとAPIに直接渡せなくなるので、結局1文字ずつ切り出して計算する<br>ことに。orz<br></div></section>
    <ul><li><section><h1 id=4744>
    <span class="no">[4744]</span>
    <a class="thread-title" href="#4744">Re9: Unicode の対応について</a>
    <span class="author">wakura</span>
    <time datetime="2007-03-14T22:46:39">2007年03月14日 22:46</time></h1>
    <div class="body"><br>文字列を後ろ向きに読むときのために<br><br>0xffff+0xdf??<br><br>でエスケープすればよさげ。<br><br>サロゲートペアの2ワード目かどうかは確認する必要があるので<br>そのチェックで自動的にもう1ワード戻れる。<br><br>と妄想してみました。<br></div></section>
    </li></ul></li><li><section><h1 id=4742>
    <span class="no">[4742]</span>
    <a class="thread-title" href="#4742">Re8: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-14T09:53:51">2007年03月14日 09:53</time></h1>
    <div class="body">▼ もかさん<br><br>&gt; 各種方針は、それで私はOKだと思います。<br><br>　某ワイドキャラクタ版 配布元のご意見は、重要です（^^;）<br><br>&gt; 内部がUnicodeになると制御コードが増えるので悩ましいという話です。<br><br>　そこまでよく調べてないので、ちょっと分かりませんけれど、<br>それについては、叩き台が出来上がったところで、<br>また話し合う必要がありそうですね。<br><br><br>▼ wakura さん<br><br>&gt; これって1バイト系の任意文字ですよね。<br><br>はい。パソコンが持つ最小単位が１バイトなので、必然的にそうなっちゃいます。<br>ちなみにこれは UTF-16 用ですけれど、UTF-8 にするなら・・・<br><br>任意値/内部形式<br>0x00/0xFE 0x00<br>0x01/0xFE 0x01<br> .　 .　　.<br> .　 .　　.<br>0xFD/0xFE 0xFC<br>0xFE/0xFF 0x00<br>0xFF/0xFF 0x01<br><br>こんな感じになるんです。<br>（内部的に使う文字コードをハッキリできないと、<br>こちらのほうも決められない罠。）<br><br>&gt; 独自にエスケープするとTextOut、キャレット位置の取得なんかのときに<br>&gt; データをごっそりとAPIに直接渡せなくなるので、<br>&gt; 結局1文字ずつ切り出して計算することに。orz<br><br>文字列の走査…もとい、<br>合成文字を考慮しない文字のサイズを取得するルーチンは単純化できます。<br>でもやっぱり、合成文字を考慮しないといけないから遅くなることに orz<br></div></section>
    </li></ul></li></ul></li></ul></li></ul></li></ul></li></ul></li><li><section><h1 id=4718>
    <span class="no">[4718]</span>
    <a class="thread-title" href="#4718">Re2: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-10T14:02:48">2007年03月10日 14:02</time></h1>
    <div class="body">&gt; 不便そうなところがあれば、早めにご指摘下さい。<br><br>class SAKURA_CORE_API CMemText{<br>  CMemory *m_pcmemData;  // UTF-8<br>  CMemory *m_pcmemData_sjis;  // SJIS 互換用バッファ<br>public:<br>  CMemText() : m_pcmemData(NULL) {};<br>  ~CMemText() {};<br><br>  void DetatchBuf( CMemory * );<br>  void DetatchBuf_sjis( CMemory * );<br><br>  char* GetPtr() const{ m_pcmemData.GetPtr(); }<br>  char* GetPtr_sjis() const{ m_pcmemData_sjis.GetPtr(); }<br><br>  static int GetSizeOfChar( const char *, const int, const int );<br>  static int GetSizeOfChar_sjis( const char *, const int, const int );<br><br>  bool IsValid() { return (m_pcmemData != NULL) }<br>  int LoadText( enumCodeType, const CMemory &amp; );<br>  int LoadText_sjis( const char *, const int );<br>  int LoadText_jis( const char *, const int );<br>  int LoadText_eucjp( const char *, const int );<br>  int LoadText_uni( const char *, const int );<br>  int LoadText_utf8( const char *, const int );<br>  int LoadText_utf7( const char *, const int );<br>  int LoadText_unibe( const char *, const int );<br><br>  int ToAuto( enumCodeType, CMemory * );  /* 指定された文字コードで書き出し */<br>  int ToSJis( CMemory * ); /* Windows版 SJIS(CP-932) で書き出し */<br>  int ToJis( CMemory * ); /* Windows版 ISO-2022-JP(CP-5022x) で書き出し */<br>  int ToEuc( CMemory * ); /* Windows版 EUC-JP(CP-51932) で書き出し */<br>  int ToUnicode( CMemory * ); /* UTF-16 で書き出し */<br>  int ToUtf8( CMemory * ); /* UTF-8 で書き出し */<br>  int ToUtf7( CMemory * ); /* UTF-7 で書き出し */<br>  int ToUnicodeBe( CMemory * ); /* UTF-16 Big-Endian で書き出し */<br><br>  void ToZenkaku( int, int ); /* 半角→全角 */<br>  void ToHankaku( int nMode ); /* 全角→半角 */<br>  void ToLower( void ); /* 小文字 */<br>  void ToUpper( void ); /* 大文字 */<br>};<br></div></section>
    <ul><li><section><h1 id=4723>
    <span class="no">[4723]</span>
    <a class="thread-title" href="#4723">Re3: Unicode の対応について</a>
    <span class="author">げんた</span>
    <time datetime="2007-03-10T20:24:04">2007年03月10日 20:24</time></h1>
    <div class="body">&gt;  CMemory *m_pcmemData_sjis;  // SJIS 互換用バッファ<br>をどのように使用するのかちょっと見えないのですけど，2つのバッファをどう使っていくのかもう少し説明していただけませんか．<br></div></section>
    <ul><li><section><h1 id=4724>
    <span class="no">[4724]</span>
    <a class="thread-title" href="#4724">Re4: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-10T21:09:24">2007年03月10日 21:09</time></h1>
    <div class="body">すみません、説明不足でしたー。<br>こんな感じです（f^^;）<br><br>class SAKURA_CORE_API CMemText<br>{<br>  CMemory *m_pcmemData;  // 内部 UTF-8<br>  CMemory *m_pcmemData_out;<br>  int m_nCodeType;<br>  bool m_bChanged;<br><br>  /*<br>    説明：<br>    m_pcmemData ....... 　内部データ (UTF-8)<br>    m_pcmemData_out ... 　出力用一時バッファ<br>    m_nCodeType ....... 　出力用一時バッファに保持されているデータの文字コード<br>                        CODE_SJIS: SJIS, CODE_UNICODE: Unicode, -1: 出力用一時バッファにデータ無し<br>    m_bChanged ........ 　内部データが出力用一時バッファ *m_pcmemData_out に転送された後に、<br>                        内部データに変更があったかどうか。<br>  */<br><br>public:<br><br>  CMemText() : m_pcmemData(NULL) {};<br>  ~CMemText() {};<br><br>  bool IsValid() { return (m_pcmemData != NULL) }<br><br>  // 内部データのポインタを取得<br>  char *GetPtr() const;<br>  // SJIS に変換されたデータ（出力用一時バッファに格納）のポインタを取得<br>  char *GetPtr_sjis() const;<br>  // UTF-16 に変換されたデータ（出力用一時バッファに格納）のポインタを取得<br>  wchar_t *GetPtr_utf16() const;<br><br>  ....<br></div></section>
    <ul><li><section><h1 id=4725>
    <span class="no">[4725]</span>
    <a class="thread-title" href="#4725">Re5: Unicode の対応について</a>
    <span class="author">げんた</span>
    <time datetime="2007-03-11T01:01:46">2007年03月11日 01:01</time></h1>
    <div class="body">いろいろ突っ込んじゃいます．<br><br>&gt;    m_pcmemData ....... 　内部データ (UTF-8)<br>UTF-8? 表示の都度変換する覚悟なのですね．<br><br>&gt;    m_pcmemData_out ... 　出力用一時バッファ<br>&gt;    m_nCodeType ....... 　出力用一時バッファに保持されているデータの文字コード<br>&gt;                        CODE_SJIS: SJIS, CODE_UNICODE: Unicode, -1: 出力用一時バッファにデータ無し<br>&gt;    m_bChanged ........ 　内部データが出力用一時バッファ *m_pcmemData_out に転送された後に、<br>&gt;                        内部データに変更があったかどうか。<br>テキストごとにバッファが必要か？と思いましたが，キャッシュなのですね．<br>実質的にメモリ消費が倍になってしまいません？<br>それでも変換結果を保存する必要があるのでしょうか．<br></div></section>
    <ul><li><section><h1 id=4728>
    <span class="no">[4728]</span>
    <a class="thread-title" href="#4728">Re6: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-11T19:37:57">2007年03月11日 19:37</time></h1>
    <div class="body">ビシバシ突っ込んで下さい。<br><br>&gt; &gt;     m_pcmemData ....... 　内部データ (UTF-8)<br>&gt;UTF-8? 表示の都度変換する覚悟なのですね．<br><br>　えーと。Winアプリを一度も作ったことがない程の者なので（汗）<br>正直言って、それでいいのかどうか分かりかねます…。<br>また、自分で出来るところは、せいぜい文字列変換クラスと、<br>それにまつわる文字列走査関数くらいじゃないかなぁと・・・。<br>けれど、とにかく変換その他ライブラリをそろえることと、<br>サクラエディタのUNICODE化に対する方針を固めることくらいは<br>やっておかないと、誰も手をつけなられないと思うので…。<br><br>　API関数 ::TextOutW() は UTF-16 もどきを必要としているそうなので、<br>UTF-16 を内部データとするのが効率的なんでしょうか…。<br>それとも、各関数のインターフェースをあまり変更しなくてもよい、<br>比較的滑らかに UNICODE化できそうな（気がする）UTF-8 を<br>用いるほうがいいでのしょうか。<br>　こう書いてみると、理想は UTF-16 ですけれど・・・。<br>このあたりの、なんかこう…、説得力のある解説をどなたか、<br>よろしくお願いします。<br><br>&gt; テキストごとにバッファが必要か？と思いましたが，キャッシュなのですね．<br>&gt; 実質的にメモリ消費が倍になってしまいません？<br>&gt; それでも変換結果を保存する必要があるのでしょうか．<br><br>　SJIS 用の出力用一時バッファについてですが、本来、<br>それは必要なさげですけれど、UNICODEに対応し切れないコードに<br>対して、SJIS に変換してからポインタを取得するというような<br>コードが散在する状況が目に見えているので、あると便利かなーと…。<br><br>　ところで、CMemText クラスが使われる場面は、主に、<br>以下のようなものを想定してます。<br><br>　１．単に文字コード・文字種を変換するとき。<br>　２．単に文字列を走査するとき。<br>　３．SJIS 対応関数に CDocLineMgr 管轄の CMemory オブジェクトを参照させるとき。<br>　４．その他。<br><br>　上記のメモリ消費量の問題は、現状の、エディタに読み込んだ<br>テキストを CMemory クラスを使って保持する構造を維持するように<br>努めることで、文字コードの違った同じ内容のテキストを<br>２つ持つような状況は、UNICODE化が進むにつれて減っていく・・・うぅ（--;）<br>というか・・・<br>そういう状況にならないよう、気をつける必要がありますね…（^^;）<br></div></section>
    <ul><li><section><h1 id=4731>
    <span class="no">[4731]</span>
    <a class="thread-title" href="#4731">Re7: Unicode の対応について</a>
    <span class="author">げんた</span>
    <time datetime="2007-03-13T00:23:04">2007年03月13日 00:23</time></h1>
    <div class="body">&gt;　API関数 ::TextOutW() は UTF-16 もどき<br>あれっ，"もどき"なんですか．知らなかった...というのは本題ではなくて，<br>表示する度に変換が必要で，それをキャッシュしたらデータを二重に持つことになるのでは？<br>つまり，2つめのバッファにSJISと名付けていますけど，そこは表示の時には使わないのか？という疑問です．<br></div></section>
    <ul><li><section><h1 id=4734>
    <span class="no">[4734]</span>
    <a class="thread-title" href="#4734">Re8: Unicode の対応について</a>
    <span class="author">ラスティブ</span>
    <time datetime="2007-03-13T15:00:08">2007年03月13日 15:00</time></h1>
    <div class="body">&gt; &gt; 　API関数 ::TextOutW() は UTF-16 もどき<br>&gt; あれっ，"もどき"なんですか．知らなかった...というのは本題ではなくて，<br>&gt; 表示する度に変換が必要で，それをキャッシュしたらデータを二重に持つことになるのでは？<br>&gt; つまり，2つめのバッファにSJISと名付けていますけど，そこは表示の時には使わないのか？という疑問です．<br><br>はい。二重に持つことになります。<br>表示のときにキャッシュするテキストの桁数は、<br>現状の CEditView::DispLineNew だと、<br>最大で編集領域の折り返し長分となります。<br><br>内部コードを UTF-16 にすれば、<br>表示データをキャッシュする頻度が減りますね…たしかに。<br><br>SJIS と名づけられた2つ目のバッファは、最終的には、<br>Win9x 系で動作させるときのためだけに使われることに<br>なりそうです。<br></div></section>
    </li></ul></li></ul></li></ul></li></ul></li></ul></li></ul></li></ul></li><li><section><h1 id=4758>
    <span class="no">[4758]</span>
    <a class="thread-title" href="#4758">RE: Unicode の対応について</a>
    <span class="author">wakura</span>
    <time datetime="2007-03-20T22:07:15">2007年03月20日 22:07</time></h1>
    <div class="body"><br>とりあえずリンク集<br><br>Vistaフォント関係のMSのリンク<br>http://www.microsoft.com/japan/presspass/detail.aspx?newsid=2353<br>http://support.microsoft.com/kb/927488/ja<br>http://www.microsoft.com/japan/windows/products/windowsvista/jp_font/default.mspx<br>ここの「Windows Vista における JIS2004 対応に関する詳細資料」のPDFに、<br>追加された合成文字のイメージがあります。<br><br><br>あとWikipediaにもコード表が！<br>http://ja.wikipedia.org/wiki/Unicode#WAVE_DASH_-_FULLWIDTH_TILDE.E5.95.8F.E9.A1.8C<br><br>本家<br>http://www.unicode.org/<br></div></section>
    </li></ul></li></ul></li></ul></li></ul></li></ul></body></html>